Domain shift widely exists in the visual world, while modern deep neural networks commonly suffer from severe performance degradation under domain shift due to the poor generalization ability, which limits the real-world applications. The domain shift mainly lies in the limited source environmental variations and the large distribution gap between source and unseen target data. To this end, we propose a unified framework, Style-HAllucinated Dual consistEncy learning (SHADE), to handle such domain shift in various visual tasks. Specifically, SHADE is constructed based on two consistency constraints, Style Consistency (SC) and Retrospection Consistency (RC). SC enriches the source situations and encourages the model to learn consistent representation across style-diversified samples. RC leverages general visual knowledge to prevent the model from overfitting to source data and thus largely keeps the representation consistent between the source and general visual models. Furthermore, we present a novel style hallucination module (SHM) to generate style-diversified samples that are essential to consistency learning. SHM selects basis styles from the source distribution, enabling the model to dynamically generate diverse and realistic samples during training. Extensive experiments demonstrate that our versatile SHADE can significantly enhance the generalization in various visual recognition tasks, including image classification, semantic segmentation and object detection, with different models, i.e., ConvNets and Transformer.
translated by 谷歌翻译
This paper presents ReasonFormer, a unified reasoning framework for mirroring the modular and compositional reasoning process of humans in complex decision-making. Inspired by dual-process theory in cognitive science, the representation module (automatic thinking) and reasoning modules (controlled thinking) are decoupled to capture different levels of cognition. Upon the top of the representation module, the pre-trained reasoning modules are modular and professional in specific and fundamental reasoning skills (e.g., logic, simple QA, etc). To mimic the controlled compositional thinking process, different reasoning modules are dynamically activated and composed in both parallel and cascaded manners to control what reasoning skills are activated and how deep the reasoning process will be reached to solve the current problems. The unified reasoning framework solves multiple tasks with a single model, and is trained and inferred in an end-to-end manner. Evaluated on 11 datasets requiring different reasoning skills and complexity, ReasonFormer demonstrates substantial performance boosts, revealing the compositional reasoning ability. Few-shot experiments exhibit better generalization ability by learning to compose pre-trained skills for new tasks with limited data, and decoupling the representation module and the reasoning modules. Further analysis shows the modularity of reasoning modules as different tasks activate distinct reasoning skills at different reasoning depths.
translated by 谷歌翻译
与2D车道相比,实际3D车道数据很难准确收集。在本文中,我们提出了一种仅使用2D车道标签训练3D车道的新方法,称为弱监督的3D车道检测WS-3D车道。通过在相邻车道上的恒定车道宽度和相等高度的假设,我们间接监督训练中的3D车道高度。为了克服数据收集过程中相机音调动态变化的问题,提出了相机音调自校准方法。在锚固表示中,我们提出了一个具有改进的非限量抑制(NMS)方法的双层锚,该方法使基于锚的方法可以预测两条接近的车道线。实验是在两种监督方法下在3D-LANENEN的基础上进行的。在弱监督的环境下,我们的WS-3D车道的表现优于先前的3D-LANEN:APOLLO 3D合成数据集的F得分上升到92.3%,而F1在3DDLANES上上升到74.5%。同时,在纯监督环境中的WS-3D车道可以提高更多的增量,并且优于最先进的设置。据我们所知,WS-3D车道是在弱监督环境下进行3D车道检测的第一次尝试。
translated by 谷歌翻译
异构综合学习粒子群优化(HCLPSO)是一种具有增强探索和开发能力的进化算法。与随机序列相比,覆盖搜索空间的低阶段序列(LDS)在覆盖搜索空间方面更均匀。在本文中,研究了利用LDS的良好均匀性来改善HCLPSO。进行数值实验以表明仅通过使用LDS生成初始种群,就不可能有效地提高HCLPSO的搜索能力。但是,如果我们从HCLPSO速度更新公式中正确选择一些随机序列并将其替换为确定性LDS,则可以获得更有效的算法。与原始的HCLPSO在相同的精度要求下相比,使用确定性LDS更新速度的HCLPSO可以显着降低找到最佳解决方案所需的迭代,而不会降低成功率。
translated by 谷歌翻译
最近,我们看到了照片真实的人类建模和渲染的神经进展取得的巨大进展。但是,将它们集成到现有的下游应用程序中的现有网络管道中仍然具有挑战性。在本文中,我们提出了一种全面的神经方法,用于从密集的多视频视频中对人类表演进行高质量重建,压缩和渲染。我们的核心直觉是用一系列高效的神经技术桥接传统的动画网格工作流程。我们首先引入一个神经表面重建器,以在几分钟内进行高质量的表面产生。它与多分辨率哈希编码的截短签名距离场(TSDF)的隐式体积渲染相结合。我们进一步提出了一个混合神经跟踪器来生成动画网格,该网格将明确的非刚性跟踪与自我监督框架中的隐式动态变形结合在一起。前者将粗糙的翘曲返回到规范空间中,而后者隐含的一个隐含物进一步预测了使用4D哈希编码的位移,如我们的重建器中。然后,我们使用获得的动画网格讨论渲染方案,从动态纹理到各种带宽设置下的Lumigraph渲染。为了在质量和带宽之间取得复杂的平衡,我们通过首先渲染6个虚拟视图来涵盖表演者,然后进行闭塞感知的神经纹理融合,提出一个分层解决方案。我们证明了我们方法在各种平台上的各种基于网格的应用程序和照片真实的自由观看体验中的功效,即,通过移动AR插入虚拟人类的表演,或通过移动AR插入真实环境,或带有VR头戴式的人才表演。
translated by 谷歌翻译
持续的19日大流行造成了全世界人民的不可估量的损失。为了遏制病毒的传播并进一步减轻危机,已经发布了各种健康政策(例如,在家命令),随着用户转向社交媒体分享他们的态度,他们引发了热烈讨论。在本文中,我们考虑了有关大流行病的立场检测(即跨目标和零照片设置)的更现实的场景,并提出了一个基于对抗性的学习立场分类器,以自动识别公众对与COVID相关健康健康相关健康的态度政策。具体而言,我们采用对抗性学习,使模型可以训练大量标记的数据并从源主题中捕获可转移的知识,从而使具有稀疏标记数据的新兴健康政策概括。同时,设计了一个地理编码器,鼓励模型学习每个区域指定的未观察到的上下文因素,并将其表示为非文本信息,以增强模型的更深入的理解。我们评估了与CoVID-19相关策略的立场检测任务中广泛基线的性能,实验结果表明,我们提出的方法在跨目标和零击设置中都达到了最新的性能。
translated by 谷歌翻译
机器学习的最新进展使其在不同领域的广泛应用程序,最令人兴奋的应用程序之一是自动驾驶汽车(AV),这鼓励了从感知到预测到计划的许多ML算法的开发。但是,培训AV通常需要从不同驾驶环境(例如城市)以及不同类型的个人信息(例如工作时间和路线)收集的大量培训数据。这种收集的大数据被视为以数据为中心的AI时代的ML新油,通常包含大量对隐私敏感的信息,这些信息很难删除甚至审核。尽管现有的隐私保护方法已经取得了某些理论和经验成功,但将它们应用于自动驾驶汽车等现实世界应用时仍存在差距。例如,当培训AVS时,不仅可以单独识别的信息揭示对隐私敏感的信息,还可以揭示人口级别的信息,例如城市内的道路建设以及AVS的专有商业秘密。因此,重新审视AV中隐私风险和相应保护方法的前沿以弥合这一差距至关重要。遵循这一目标,在这项工作中,我们为AVS中的隐私风险和保护方法提供了新的分类法,并将AV中的隐私分为三个层面:个人,人口和专有。我们明确列出了保护每个级别的隐私级别,总结这些挑战的现有解决方案,讨论课程和结论,并为研究人员和从业者提供潜在的未来方向和机会。我们认为,这项工作将有助于塑造AV中的隐私研究,并指导隐私保护技术设计。
translated by 谷歌翻译
这里介绍了人工智能研究所(IARAI)组织的2022年Landslide4sense(L4S)竞赛的科学结果。竞争的目的是根据全球收集的卫星图像的大规模多个来源自动检测滑坡。 2022 L4S旨在促进有关使用卫星图像的语义分割任务的深度学习模型(DL)模型最新发展的跨学科研究。在过去的几年中,由于卷积神经网络(CNN)的发展,基于DL的模型已经达到了对图像解释的期望。本文的主要目的是介绍本次比赛中介绍的细节和表现最佳的算法。获胜的解决方案详细介绍了Swin Transformer,Segformer和U-NET等最先进的模型。还考虑了先进的机器学习技术和诸如硬采矿,自我培训和混合数据增强之类的策略。此外,我们描述了L4S基准数据集,以促进进一步的比较,并在线报告准确性评估的结果。可以在\ textIt {未来开发排行榜上访问数据,以供将来评估,\ url {https://www.iarai.ac.ac.at/landslide4sense/challenge/},并邀请研究人员提交更多预测结果,评估准确性在他们的方法中,将它们与其他用户的方法进行比较,理想情况下,改善了本文报告的滑坡检测结果。
translated by 谷歌翻译
对传染病疾病的准确预测是有效控制该地区流行病的关键。大多数现有方法忽略了区域之间的潜在动态依赖性或区域之间的时间依赖性和相互依存关系的重要性。在本文中,我们提出了一个内部和内部嵌入式融合网络(SEFNET),以改善流行病预测性能。 SEFNET由两个平行模块组成,分别是嵌入模块的系列间嵌入模块。在嵌入模块的串间嵌入模块中,提出了一个多尺度的统一卷积组件,称为“区域感知卷积”,该组件与自我发挥作用,以捕获从多个区域获得的时间序列之间捕获动态依赖性。内部嵌入模块使用长期的短期内存来捕获每个时间序列中的时间关系。随后,我们学习了两个嵌入的影响度,并将它们与参数矩阵融合法融合在一起。为了进一步提高鲁棒性,Sefnet还与非线性神经网络并行整合了传统的自回归组件。在四个现实世界流行有关的数据集上进行的实验表明,SEFNET具有有效性,并且表现优于最先进的基线。
translated by 谷歌翻译
在本文中,我们考虑了语义分割中域概括的问题,该问题旨在仅使用标记的合成(源)数据来学习强大的模型。该模型有望在看不见的真实(目标)域上表现良好。我们的研究发现,图像样式的变化在很大程度上可以影响模型的性能,并且样式特征可以通过图像的频率平均值和标准偏差来很好地表示。受此启发,我们提出了一种新颖的对抗性增强(Advstyle)方法,该方法可以在训练过程中动态生成硬性化的图像,因此可以有效防止该模型过度适应源域。具体而言,AdvStyle将样式功能视为可学习的参数,并通过对抗培训对其进行更新。学习的对抗性风格功能用于构建用于健壮模型训练的对抗图像。 AdvStyle易于实现,并且可以轻松地应用于不同的模型。对两个合成到现实的语义分割基准的实验表明,Advstyle可以显着改善看不见的真实域的模型性能,并表明我们可以实现最新技术的状态。此外,可以将AdvStyle用于域通用图像分类,并在考虑的数据集上产生明显的改进。
translated by 谷歌翻译